#DeepSeek LLM | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#DeepSeek LLM

V4 發佈前的 DeepSeek：特質、組織和梁文鋒的獨特目標

有人離開，更多人留下。DeepSeek 正處在一個變化的關口，從 2025 年下半年至今，明確已離開、找到新去處的 DeepSeek 成員有：去年底被騰訊姚順雨挖走的王炳宣，他是 DeepSeek LLM（DeepSeek 第一代大語言模型）的核心作者，此後參與歷代模型訓練。約在春節前後離開的魏浩然，他是 DeepSeek-OCR 系列的核心作者，可能會入職某大廠。近期正式離職的郭達雅，他是 DeepSeek-R1 的核心作者，可能會入職某大廠。以及 2025 年早些時候離職進入退休狀態的阮翀，他在今年 1 月官宣加入自動駕駛創業公司元戎啟行；阮翀是從幻方時期就加入的老成員，是 Janus-Pro 等 DeepSeek 多模態成果的核心貢獻者。DeepSeek 此前並未融資，沒有明確的公司估值。當其它 AI 公司市值或估值高漲，梁文鋒正在想辦法回答團隊成員的疑問：公司到底值多少錢？這關係著員工簽的期權協議到底價值幾何。從 2025 年秋天起，梁文鋒也開始更多提產品化和商業化。DeepSeek 已有小數十人的產品團隊，但尚未涉足 AI 程式設計、通用 Agent 等熱門應用方向，在 C 端仍只有典型的 Chatbot 產品。梁文鋒的新課題還有管理規模。DeepSeek 的人數已超過幻方，是他管過的最大的組織。籠罩以上多重變化的是，DeepSeek V4 仍未正式發佈。其實在 26 年 1 月左右，V4 的一個小參數版本已給到了一些開源框架社區開始做適配。按此前相對樂觀的預期，大參數版的 V4 原本可能在 2 月中旬春節前後發佈和開源。據瞭解，DeepSeek V4 有可能會在 4 月發佈。有人離開，更多人選擇留下。DeepSeek 在調整，但也有諸多不變的特質。它是全球僅有的 “不卷” 的核心 AI Lab。當 Google、OpenAI、xAI、字節跳動等中美公司的核心 AI 開發人員每周工作 70~80 小時時，平日裡 DeepSeek 的多數員工會在下午 6 點~7 點左右離開公司，他們早上也不打卡。梁文鋒認為，一個人一天能高品質輸出的時間很難超過 6~8 小時。DeepSeek 沒有明確的績效考核和 DDL（截止時間）。這個精簡而人才密度極高的組織依然延續 “自然分工”，研究員可自由組隊或獨自鑽研一些新想法。“除了主線之外，DeepSeek 也有人在做一些可能一年都不會有成效的長期研究。”“DeepSeek 是一個真心想做研究的人，在國內，甚至全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。當然，DeepSeek 還有一個特點：神秘。尤其 2025 年之後，除了公開發佈技術報告外，從創始人梁文鋒到團隊成員集體 “沉默”，在 AI 從業者活躍的社交媒體或社區裡很難聽到他們的聲音。這篇報導裡，我們呈現了從各種管道瞭解到的 DeepSeek 的特點、工作重心、組織運轉方式，和這個不到 200 人的組織正在發生的變化。這一切的源頭，都是梁文鋒為 DeepSeek 設立的獨特目標。梁文鋒其人：做少數事，做到極致梁文鋒的 AI 目標遠早於 DeepSeek 成立的 2023 年。2016 年，AGI 的提出者、DeepMind 創始人哈薩比斯曾組建量化交易團隊，試圖給當時想從 Google 獨立的 DeepMind 創收，結果沒賺到錢。同一年，浙大本碩畢業的梁文鋒做量化投資已經 8 年。他在 2015 年創立幻方，2016 年開始用 GPU 跑深度學習實盤交易，在 2017 年底實現 “幾乎所有交易策略 AI 化”，在 2019 年開始建立幻方的第一個算力叢集，有 1100 張 GPU 的 “螢火 1 號”。也是 2019 年，幻方 AI（幻方人工智慧基礎研究有限公司）正式註冊成立。現在在小米負責 AI 的羅福莉和近期加入元戎的阮翀都是在這之後加入幻方，後在 2023 年轉入 DeepSeek。作為一個不到 30 歲就財富自由的人，梁文鋒的生活簡單而神秘。在周圍人的印象中，他會好多天穿同一件衣服。他在杭州曾長期住酒店，在多數 DeepSeek 研發人員所在的北京則租房住。他身材精瘦、有運動習慣，被人所知的愛好是徒步等戶外運動。黃仁勳會邀請輝達員工去家裡做客，喝小酒、聊家常，開心地展示跑車。而梁文鋒不參與季度團建活動，很少和成員聚餐，年底大團建也只在講話時露面，不會參與全程。2022 年，幻方一位員工 “一隻平凡的小豬” 個人向慈善機構捐助 1.38 億元。後來很多人猜這只小豬就是梁文鋒。幻方工作人員的回覆是：“員工捐款均是匿名，公司內部也不知道小豬的真實身份。”在工作範疇裡，梁文鋒只做少數事。他不做多數初創公司 CEO 做的一些事，如融資。2023 年，梁文鋒小範圍見過一些投資人。但據我們瞭解，他提出了一個不常規的要求：類似 OpenAI 與微軟的投資協議，梁文鋒希望投資方接受一個回報上限。這一輪見下來，沒有機構投資 DeepSeek。之後兩年，中國大模型融資洶湧，頻現數億美元大單輪，梁文鋒卻不再見投資人了，甚至不建立新的聯絡。即使不在融資窗口，大部分創始人也不會拒絕認識一下一線機構合夥人，而梁文鋒拒絕了多數此類請求。梁文鋒幾乎把所有時間投入到他認為應該聚焦的少數事上，做得細緻、做到極致。DeepSeek 此前成功的關鍵之一是 “力出一孔”，明確以語言模型為更高優先順序，沒有做多模態生成等熱門方向。在選定的主線上，梁文鋒會 “hands on” 地深入細節。他從不同背景的團隊成員身上學習演算法、架構、Infra、資料的知識，會自己參與模型和產品的細節討論。見過梁文鋒的不少人提到，他沒有 CEO 或所謂天才的 “氣場”，更像一個研究員，他和人談論最多的是具體技術問題。綠洲資本創始合夥人張津劍曾在《那些活出來的人中》分享了一個小故事，他問自己投資的 MiniMax 創始人閆俊傑：“有比你更專注的人嗎？” 閆俊傑說有一次約一位沒見過的朋友吃飯，到早了，看到一位穿 T 恤的小哥，以為是助理。對方開始沒有自我介紹，問了閆俊傑很多技術問題。過了半小時，閆俊傑說：“梁總什麼時候來？” 對方說：“我就是梁文鋒”。DeepSeek 組織：扁平、交叉分工、不加班與梁文鋒的風格相應，DeepSeek 的組織極其扁平、各環節交叉分工、謹慎擴張規模、不加班。創立幻方時，梁文鋒有合夥人，而 DeepSeek 沒有二把手，尤其在研究團隊，只有梁文鋒和其他研究員兩個層級。梁文鋒做重大決定，承擔最多結果。這部分研究團隊現在約有 100 多人，它像一個大型實驗室。主要在 2000 年前後出生的 DeepSeek 研究員們習慣稱 1985 年出生的梁文鋒為 “梁老闆”。這個老闆更接近導師：組織研發、協調資源，也做具體研究，在共同成果上署名為通訊作者。梁文鋒本人參與最多的是基模架構團隊，會與團隊深入討論後確定每一代基模的架構定版。這個團隊有小幾十人，他們是預訓練的主力。與基模架構密切相關的是 Infra 和資料團隊，各有小幾十人。Infra 團隊在一些公司裡更像完成演算法需求的 “內部乙方”，而 DeepSeek 的 Infra 團隊會在模型訓練前的定版階段就參與討論、給出建議。這幾個模組間的緊密合作使 DeepSeek 的團隊界限沒那麼涇渭分明，形成了 “交叉分工”。這其實是最符合模型訓練特點的協作形式，因為在模型實驗和定版階段，就要考慮資料選擇和 Infra 實現。梁文鋒是串起這些不同模組的探測器和粘合劑，他會出席每一個團隊各自的會議，瞭解全域進度和卡點。DeepSeek 大部分團隊的周會也向其它團隊的人開放，可跨組參會。深入細節的一號位風格和自發形成的緊密協作都很難在大組織裡實現。所以 DeepSeek 會很謹慎地擴大核心研發團隊的規模。在全球 AI 圈都非常特異的一點是，DeepSeek 不加班。他們不打卡、沒有明確的績效考核，平日多數成員會在 6 點~7 點左右離開公司。DeepSeek 給員工免費提供一些下班後福利，如球類課程、運動場地報銷等。梁文鋒認為：一個人每天能高品質工作的時間很難超過 6~8 小時。加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源，得不償失。在人員構成上，DeepSeek 此前幾乎不社招，以應屆生和實習生留任為主。2025 年初，《晚點》曾梳理當時參與過 DeepSeek 三代模型（LLM、V2、V3&R1）的 172 名研究者（包括實習生），並找到了其中 84 人的履歷：超 7 成的人是本科生和碩士生，超 7 成的人小於 30 歲。在 V3 和 R1 之前，DeepSeek 是以大廠約 1/10 的人數，約 1/2 的人均工作時間，以極高的專注和聚焦，躋身全球大模型第一梯隊。但隨著觸達頂尖 AI 能力需要探索的方向越來越多，繼續保持這種組織規模、溝通方式和協作氛圍已越來越難。過去 15 個月，DeepSeek 繼續做自己，而外部世界急劇變化2025 年初 V3 和 R1 爆火後，DeepSeek 並沒有乘勝追擊放大招，而是沿著他們專注的方向繼續研發，已經公開的成果大致有三類：一是效率最佳化：極致壓榨 GPU 算力，提高單位算力能產出的智能。這包括 DeepSeek 在 2025 年初的開源周釋放的一整套訓練與推理 Infra，涵蓋推理 kernel、通訊庫、矩陣乘法庫和資料處理框架。（註：kernel 是在 GPU 上執行最底層計算的程式碼，用來實現矩陣乘法等核心運算。）還有對 “注意力機制” 的持續改進：如 25 年初的 NSA（原生稀疏注意力）和後續的 DSA（動態稀疏注意力）。加上更早時 V2 中的 MLA（多頭潛在注意力），它們的共同目標，是在不大幅增加算力的前提下處理更長的上下文。從 25 年 9 月底更新的 DeepSeek-V3.2 中還可以看到，DeepSeek 甚至把底層的算子庫從主流的 CUDA 和 Triton 語言換成了 TileLang。CUDA 是輝達提供的最底層語言，Triton 由 OpenAI 開源，TileLang 則是北京大學楊智團隊發起的開放原始碼專案。二是模型架構改進，如 26 年初發佈的 mHC（流行約束超連接），旨在提升大規模訓練中的穩定性；和在模型之外建構長期記憶的 Engram。外界普遍認為，mHC 會被用到 V4 的訓練中。三是一些 “非主流” 探索，如把文字轉成圖片，再輸入給模型的 DeepSeek-OCR，這個思路是讓模型按更接近人類 “看文字” 的方式理解段落與層級，提升對複雜文件的理解力。在 DeepSeek 內部，還有更多進行中的此類嘗試，包括持續學習、自主學習等。梁文鋒還在 2025 年招募了一些神經科學和腦科學背景的顧問，想探索更接近人腦的學習機制。而同期，外部 AI 環境在 2025 年至今急劇變化，最受關注的競爭主線有兩條：一是以 coding 能力為基礎的 Agentic 模型和應用。這是 Anthropic 和 OpenAI 目前競爭最激烈的主戰場，形成了 Opus 4.6 vs GPT-5.4 兩個最新模型，和 Claude Code vs Codex 兩個產品的對陣。年初至今爆火的 OpenClaw 小龍蝦也是 Agentic 應用的最新形態。二是多模態生成，這個領域因 “魔法效果” 屢次出圈：2025 年春天的 OpenAI GPT-4o ，秋天的 Google NanoBanana，再到 2026 年春節前的字節 Seedance 2.0。而視訊生成也與一個更前沿的方向有關，即 “世界模型”。DeepSeek 首先沒怎麼投入多模態生成，因為梁文鋒認為多模態生成不是智能的主線。在 Agent 方向上，DeepSeek-V3.2 強化了 Agent 能力，但 DeepSeek 的整體迭代頻次低於 R1 之後一度深感焦慮其它小虎。2025 年初至今，智譜、MiniMax、Kimi 分別已更新了 5 版、4 版和 3 版模型，針對 Agent 或 coding 強化。據 OpenRouter 資料，過去 30 天（2 月 24 日-3 月 26 日），通過 OpenRouter 呼叫的 OpenClaw 應用的模型 token 消耗前 10 中，6 個模型來自中國，DeepSeek-V3.2 排在第 12。（註：OpenRouter 更反映個人和中小開發者的使用情況，只能作為整體 Token 消耗的參考。）DeepSeek 的目標不是最主流的，有人離開、有人留下DeepSeek 的 “特立獨行”，和梁文鋒認同的 AGI 目標有關，除了追求大模型的智能上限外，他認為還有兩個很重要的工作：一是基於國產生態來做大模型。DeepSeek 會投入對國產 GPU 的適配，以解決高性能 GPU 供給受限的現實。比如他們在去年 8 月更新 V3.1 後提及，DeepSeek 採用的 UE8M0 FP8——這是一種資料壓縮格式——“是針對下一代國產晶片設計”。前文提到的用國產開放原始碼的 TileLang 替代 Triton 也是這類工作，能在基礎層更有主動權。在與 AI 從業者交流時，梁文鋒也曾提過這樣的假設：“能不能用現存的一部分算力，就實現現在所有的智能？”二是 “原創式創新”，做一些大廠或其它創業公司不會去試，不願去試的方向。比如 2024 年下半年，DeepSeek 就開始了 Janus 系列，嘗試統一多模態的理解和生成。DeepSeek 也做過 Prover 系列，探索形式化證明。還有 25 年的 OCR，以及內部在繼續做的持續學習和仿生人腦的探索。作為創始人，梁文鋒最在意的，不僅是模型效果本身，也包括追求效果的路上那些更本質、原創的發現。但這與外界現在對 DeepSeek 的部分期待並不匹配：一些人希望 DeepSeek 每次出手都像 R1 那樣石破天驚，這有些強人所難，也不符合技術規律。梁文鋒可以不在意外部期待，但他必須面對和處理內部期待。對更多年輕的研究員來說，做更多前沿研究，也需要承擔更多不確定性。更保險的路，是持續參與業界最強模型，在那些被關注的技術報告上署名，以及能有豐富的 GPU 資源支撐實驗和探索。除了榮譽和影響力，外界對 DeepSeek 成員的吸引力還有高額的財富承諾。DeepSeek 的絕對薪資不低，但外面給的更高。一些獵頭告訴我們，競爭對手開出了 “難以拒絕的數字”，“翻 2 到 3 倍問題不大”，“其他公司開出 8 位數（算股票或期權）總包”。新變化還有，MiniMax 和智譜上市、股價高漲，階躍、Kimi 的 IPO 也提上日程。這也讓一些 DeepSeek 成員對手中那份沒有明確標價的期權產生更多疑問。面對巨額邀約，更多人選擇留下。他們認可梁文鋒追求 AGI 的方式，願意做並非競爭驅動的探索；也習慣了 DeepSeek 相對寬鬆、從容的研究氛圍。近期外界的一些傳聞並不精準，DeepSeek 團隊雖有變化，但並沒有成組流失。“留下的人多少還是有些理想的。” 有接近 DeepSeek 的人士說，梁文鋒覺得在提升模型效率和性能的主線外，需要做一些當下回報不明確的方向，因為 “國外那些算力更多的公司，如 Google、OpenAI，內部肯定在試各種方向”。至今，DeepSeek 相對小的團隊和成立以來的透明、扁平的氛圍，讓成員之間依然可以自然分工：有時開始一個新方向，就是因為有三五個人都覺得一個 idea 不錯，然後就一起做了。這與梁文鋒 2024 年接受《暗湧》採訪時的描述相呼應：“我們一般不前置分工”，“每個人有自己獨特的成長經歷，都是自帶想法的，不需要 push 他……不過當一個 idea 顯示出潛力，我們也會自上而下地去調配資源。”“DeepSeek 是一個真心想做研究的人，在國內，甚至是全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。改變世界，也被世界改變對 AGI 目標的獨特認知和拆解，是 DeepSeek 的可貴之處，也是它如今面臨內部張力的原因。因為梁文鋒看重的生態建設和原創探索，與業界普遍把 “保持最強” 視為第一優先順序，是重合但並非完全一致的目標。而且大模型發展到今天，“強” 和 “原創性” 的標準越來越模糊而主觀。Benchmark 分數已不能完全衡量模型水平。尤其進入 Agentic 模型競爭後，產品觸手及其帶來的長尾使用案例與多樣化資料變得更重要了，這恰恰是專注於模型研發的 DeepSeek 此前沒有太多投入的地方。即將發佈的 V4，大機率仍是開源最強模型，但很難是碾壓級的強。因為現在不同場景的不同開發者和使用者對 “強” 的標準和體感已越來越多元。什麼是原創的、有價值的新探索，則向來眾說紛紜，取決於不同研究者的經驗、判斷和直覺，所謂 “技術品味”。驗證品味的方式是實驗，而實驗的數量和規模又受限於 GPU 資源。相對於同行，DeepSeek 並沒有那麼多算力。最後，不管是大模型的生態基礎，還是在追求模型效果的過程中，探索其它團隊不一定會試的方向，這些梁文鋒看重的工作的回報都極不明確。前沿研究本該承擔這種不確定性，但它與算力資源有限的事實，與外界對 DeepSeek 能持續驚豔甚至 “碾壓” 的期待不完全匹配。梁文鋒意識到了要改變，近期他開始想辦法給公司估值，給團隊成員更多確定的預期。DeepSeek 也將更多投入產品。我們梳理了 DeepSeek 一位 HR 在社交媒體上從 2024 年 12 月至今發佈的所有招聘啟示，在今年 3 月中旬的最新招聘中，DeepSeek 第一次提及其它具體產品的名稱，要招募 Agent 方向 “模型策略產品經理”：持續跟蹤行業前沿，熟悉並深度使用過 Claude Code、OpenClaw、Manus 等知名 agent……接下來，肯定會看到 DeepSeek 在 Agent 產品上的更多動作。2025 年初，DeepSeek 以慷慨的開源精神和以小博大的奇蹟，震撼了中國和世界，也改變了世界：讓一批同行投入更多精力到模型技術本身，啟發了 Kimi K2 和 K2-thinking 等後續模型，也直接催生了一些新團隊，如陳天橋出資支援的 MiroMind。奇蹟之所以是奇蹟，就是因為它不常發生，是小機率事件。在中國這個崇尚競爭和結果說話的環境裡，敢於追求獨特目標的 DeepSeek 的存在本身，是一個令人驚喜的小機率事件。接觸梁文鋒的人評價：“他是一個特別抗噪音的人。”2025 年 R1 爆火後，梁文鋒顯示了對追捧的淡然。而現在，他面臨另一種情形的考驗：在外部競爭加劇時，分辨噪音與訊號，堅持該堅持的，改變要改變的。“低頭做事的人也許不一定能在浮躁的市場洪流裡笑到最後，但是只有更多 DeepSeek 這樣的公司出現，中國科技才有從 ‘復刻’ 到領跑的可能。” 一位從業者說。這是屬於梁文鋒和 DeepSeek 的工作。而曾被這家公司震動過的更多人，能做的很簡單：卸下爽文敘事，用更多平常心去看待一家公司和技術創新。 (晚點LatePost)

DeepSeek 與 Google 的暗戰：誰會最先找到通往 AGI 的鑰匙？

自從 2022 年 ChatGPT 3.5 橫空出世，讓世人領略到 AI 的非凡魅力；再到 2024 年底 DeepSeek 驚豔登場，給國人帶來了巨大的驚喜與自信。如今，各類大模型（LLM）及 AI 應用已經深刻地改變了我們的生活。AI 每天都在增強功能。昨天做不到的事，今天已經能做；前天做不好的題，今天已經可以輕鬆解決。我們彷彿回到了蒸汽機投入實用後的那段時間——新技術、新發明以肉眼可見的速度狂飆突進。然而，在這波 AI 浪潮的狂歡背後，科技界仍存爭議：LLM 真的是通往 AGI（通用人工智慧）的正確方向嗎？或者說，僅靠當前的 LLM 就足夠了嗎？答案其實很清晰：不夠。Transformer 是一次偉大的突破，但要讓機器真正“理解世界”，我們仍需要更多類似 Transformer 等級的全新核心技術。凍結的知識快照不是智能我們知道，當前大模型的訓練方法，本質是讓 Transformer 在大量文字裡尋找“詞與詞的關係”，並基於這些統計關係預測下一個詞。訓練完成後，所有知識都被壓縮排最終的權重檔案裡，像一張凝固的“知識快照”。但之後它不會自動學習新知識，除非重新訓練或微調。明天產生的新知識無法自動融入，換言之，LLM 本身沒有即時的學習能力。從上面你很快能就發現當前基於LLM的AI的兩個“死穴”：其一，LLM只是一個機率模型，它知道“E=mc²”後面大機率跟著“愛因斯坦”，也知道怎麼用這句話造句，但它不知道這公式是怎麼推匯出來的，也不知道如果光速改變了世界會怎樣。它學到的是知識的“投影”（文字），而不是知識的“本體”（邏輯與因果）。其二，它的知識是靜態的。正因為它沒有一個知識的生產過程，所以它不知道這些知識是如何產生的，為什麼會形成這個知識，這些知識為什麼對，為什麼錯。正如X上有某位大佬所言：“當前 AI 水平離真正的 AGI 還差好幾個 Transformer 等級的創新。” 但遺憾的是，現在還沒有可以取代Transformer的新架構。在這一點上，中美其實“站在同一片荒原上”，未來怎麼走，大家都在摸索。理解知識的積累過程，是智能的前提嗎？回想一下人類的學習方式：從小到大，知識是一點一滴積累的，對同一個知識點的理解也是層層遞進的。相比之下，LLM 生成即“凍結”，缺失了進化的過程，所以它“知道”，但它不“理解”。那麼，將知識的積累過程保留下來，會不會是通往 AGI 的一個方向？如果 AI 能復現人類對某個現象的認識過程，是否就能理解其背後的原理，從而舉一反三？至少，可以將這個認識過程當作一種“元模式”記錄下來，在處理新問題時按部就班地套用。當然，這個觀點也存在爭議。因為許多科學突破是“斷層式”的——先是天才的“靈光一閃”，後人再通過邏輯去填補證據。不過，從人類的普適經驗來看，模擬知識的積累過程，肯定有助於 AI 達到人類智能的平均水準。我們不指望 AI 頓悟成愛因斯坦，但達到專家的水平是完全可期的。這個過程可以從兩個角度來分析一是知識的層級性，高階知識依賴並建立在前導知識（基礎概念、技能）之上。比如說，一個人學習流體力學前，需掌握微積分與線性代數。二是學習的漸進性，對具體知識的理解和記憶，是一個從模糊、具體到清晰、抽象的動態過程。對於個人來說，對新概念的掌握，會從最初的生硬記憶，逐漸內化為可靈活運用的直覺。Google的思考：結構化與記憶針對第一個維度（層級性），Google 試圖將模型的知識結構化為不同時間尺度、相互巢狀的層級，提出了“巢狀學習”（Nested Learning）與記憶框架。（參見論文：https://abehrouz.github.io/files/NL.pdf）。“巢狀學習”的核心是將一個複雜的AI模型，視為一系列相互巢狀的最佳化問題。簡單來說，模型的不同部分可以像人的不同記憶一樣，以不同的“速度”學習和更新。簡單舉例，一般的LLM訓練，對於一個文字來說，可以理解成一個平面，從上而下，流式分佈。然後訓練過程相當於找出每個字之間的關係機率，因為處理窗口的關係，如果算到了後面的內容，往往與前面的文字關係就小了，計算時用的權重也就低了。如同一篇小說，即使作者費盡心機在結尾時回應了開頭處的一個梗，填了開始的一個坑，對於AI來說，也是拋媚眼給瞎子看。AI早就忘記了。而Google的巢狀學習，則是對同一篇文章，除正常的訓練方式外，還對文章先在不同的層次上進行預處理。比如先做一個文章梗概，先過一遍文章，把所有作者預埋的“坑”提取出來……，這樣一篇文字就變成了n篇不同維度文字，然後在訓練時，這些文字都參與訓練，可以平行處理，只是訓練參數和訓練方法不同。能根據性質選擇不同精度和速度的計算，而且訓練出的成果是可以疊加的，不再是單一固定的權重檔案。上面的圖就是一個例子，左邊是普通的深度學習訓練過程，而右邊則是巢狀學習的例子，你能看出對於同一個內容，根據進行多次訓練，只是廣度和精度各不相同。此外，Google 的 ReasoningBank 記憶框架（相關論文：https://arxiv.org/abs/2509.25140 ）則更進一步。它的思路是讓AI智能體從以往的成功與失敗經驗中，主動提煉出結構化的“記憶項”。每個“記憶項”包含策略標題、描述和推理內容，本質上是對低級經驗的抽象總結。當面對新任務時，AI會檢索並應用這些抽象原則來指導行動，這模擬了人類專家運用已有知識框架去解決新問題的過程。DeepSeek的嘗試：多維感知與自驗證推理針對第二個維度（漸進性），DeepSeek 在感知與推理兩個層面都展現了對人類思維模式的深度模擬。首先在視覺感知層面，以 DeepSeek-OCR 為例，他們採用了一種獨特的“多解析度訓練”思路：不僅僅是對圖像進行簡單的向量化，而是試圖模擬人類的視覺認知過程——即 “從模糊到清晰” 的動態掃描。對同一張圖片（場景），模型會同時學習其低解析度的宏觀輪廓與高解析度的微觀細節（相關技術細節可參看此前的公眾號文章）。這種策略暗合了人類大腦處理視覺資訊的生物學模式：先建立全域印象，再填充局部細節。不僅在感知上發力，DeepSeek 更試圖在推理層面重現人類的“反思”能力。DeepSeek 不僅在基礎大模型上發力，向各個專家模型演進（如 DeepSeekMath-V2），更在某些領域嘗試模擬人類的“記憶狀態”。在 2025 年 11 月 27 日剛剛發佈的 DeepSeekMath-V2（論文：https://arxiv.org/pdf/2511.22570 ）中，DeepSeek 引入了突破性的 “自驗證”（Self-Verification）機制。這相當於讓 AI 進化出了“自我監考”的能力。傳統的模型像是一個只顧填答題卡的考生，只在乎最終答案是否命中；而 DeepSeekMath-V2 則像是一個嚴格的老師，它不僅檢查答案的對錯，更會一步步審視解題過程（Process）的邏輯鏈條。通過這種方式，模型不再是“蒙”對了一個答案，而是真正確信自己“理解”了這道題。這種從“結果導向”向“過程導向”的轉變，是 AI 邁向深度邏輯推理的關鍵一步。DeepSeek 的“自驗證”機制構成了一個自我完善的智能閉環：它不僅能評估解題過程，更能主動生成推理步驟並對其驗證。這模仿了人類的元認知與自我學習能力。古人倡導“吾日三省吾身”，而 AI 則可實現瞬時、高頻的自我審視與迭代最佳化。如下圖（論文中的附圖）所示，隨著驗證次數（最高達7次）的增加，模型解決問題的能力顯著提升，充分體現了通過“反覆自學”實現能力進化的潛力。雖然上述分別列舉了兩家公司的例子，但在技術演進的洪流中，它們並非孤立存在。Google 的巢狀學習涉及不同清晰度資料的處理，而 DeepSeek 的多專家系統（MoE）及多層次資料訓練，本質上也是在對知識進行結構化拆解。結尾：AGI的未來方向，也許正在悄悄顯現從 Google 到 DeepSeek，我們正在看到一個趨勢越來越明確：真正的智能，不是更大的模型，而是更“結構化”的學習過程。未來的 AI，可能會具備：能分層理解知識結構的能力能保持多時間尺度記憶的能力能自主總結“經驗規則”的能力能在模糊與清晰之間漸進切換的能力能記錄“知識的進化史”而不是只記錄結論這些能力加在一起，不是“下一代更大的 Transformer”，而是：一種能夠像人一樣“成長”的架構。我們或許距離 AGI 仍有數個重要突破，但路徑正在變得越來越清晰：不是簡單堆算力、堆資料，而是讓模型獲得“理解知識如何生成”的能力。或許，真正的智能不是一夜之間的奇蹟，而是一次又一次讓機器“重走人類認知之路”的漫長積累。而現在，我們正在走在這條路的最前面。 (亍雲旁觀)

一、AI大模型基本原理

最近隨著資本做空輝達，巴菲特退休之前押注Google，國內阿里的QWen3-max推出，大模型應用在沉寂大半年之後又開始活躍。畢竟輝達是賣鏟子的，真正拿鏟子去耕種的還得是大模型基座以及基於大模型的應用開發。💡 本文會帶給你什麼是AI？AI大模型能做什麼大模型現階段落地情況綜述怎樣尋找企業中大模型落地場景大模型的通俗原理大模型技術的短板大模型應用技術架構DeepSeek本地部署和應用開始上課！什麼是 AI？「AI is bullshit。深藍沒用任何 AI 演算法，就是硬體窮舉棋步。」思考：「智能冰箱」是 AI 嗎？一種觀點：基於機器學習、神經網路的是 AI，基於規則、搜尋的不是 AI。AI大模型能幹什麼？大模型，全稱「大語言模型」，英文「Large Language Model」，縮寫「LLM」。現在，已經不需要再演示了。每人應該都至少和下面一個基於大模型的對話產品，對話過至少 1000 次。本課第一個專業要求：分清對話產品和大模型。但是，千萬別以為大模型只是聊天機器人。它的能量，遠不止於此。按格式輸出分類聚類持續互動技術相關問題可能一切問題，都能解決，所以是通用人工智慧 AGI用 AI，要用「用人思維」：機器思維：研發了什麼功能，就有什麼功能。用人思維：給 ta 一個任務，總會有些反饋，或好或壞，驚喜或驚嚇。劃重點：大模型就是一個函數，給輸入，生成輸出任何可以用語言描述的問題，都可以輸入文字給大模型，就能生成問題的結果文字進而，任意資料，都可以輸入給大模型，生成任意資料輝達 CEO 黃仁勳 2024 年 6 月 2 日在 Computex 上的演講提到各種模態資料的統一支援：大模型GPT時代：一切皆為向量AI驅動干行百業效率升級，大量行業場景應用價值仍待深挖大模型現階段落地情況綜述Killer App 沒有影，AI 原生待證明。手握場景不著急，內部提效暗暗行。Killer App 沒有影AI 沒有創造新的使用場景，只是舊場景的增強，所以沒有 Killer App 的土壤可以樂觀期待 Killer App，但別苦苦追求請忽略一切張嘴就是 Killer App 的人AI 原生待證明AI 原生，是指產品的核心功能是 AI，而不是 AI 作為輔助功能。典型特點是，有 AI 後才出現。助手類，打不過 Siri 們ChatGPTKimi Chat文心一言通義千問智譜清言……搜尋類，Google百度不會袖手旁觀Perplexity秘塔 AIDevv情感陪伴類，社交巨頭正謹慎觀察Character.AI（已被 Google 人才收購）星野Replika定製 Agent，商業模式探索中ChatGPT GPTs扣子DifyAI程式設計，目前最成功的AI應用CursorWindsurfInsCodemarscode手握場景不著急大玩家毫不落後，AI 帶來的市場格局變化不大。拍照答題GauthQuestion AI英語學習多鄰國有道 Hi Echo圖像處理美圖秀秀Adobe Firefly辦公WPS AICopilot for Microsoft 365釘釘魔法棒飛書智能夥伴騰訊會議智能助手程式設計GitHub Copilot全家桶GoogleMicrosoft字節跳動內部提效暗暗行很多企業將大模型和業務相結合，取得了或大或小的效果行銷AI 做行銷創意，人再加工AI 批次生產行銷素材多語言翻譯客服/銷售半 AI，適合本來有人做，AI 來提效全 AI，適合本來沒人做，AI 來補位辦公公文撰寫/總結/翻譯知識庫內部客服輔助決策情報分析BI產品研發創意、頭腦風暴IT 研發提效怎樣尋找企業中大模型落地場景1. 業務流程解構明確目標：確定解構的目標是什麼，是否是提升效率、降低成本，還是增強產品或服務的質量。分析現有流程：通過與相關部門和團隊溝通，瞭解當前的業務流程，使用流程圖、價值流圖等工具。收集資料：收集與流程相關的資料，包括時間、資源、瓶頸等，識別出目前流程中的問題和改進點。識別關鍵環節：確定每個環節對業務結果的影響，識別那些環節最能推動價值產生，那些是浪費或低效的環節。2. 繪製企業價值流圖識別關鍵流程：將企業流程分為不同的關鍵環節，如供應鏈管理、生產流程、銷售等。標記價值增值活動：明確那些環節增加了實際價值，那些是純粹的支援性或非增值活動。流程中的浪費：識別流程中出現的浪費，如等待、過度處理、運輸、庫存、動作等。時間與資源：標註每個環節的時間、資源消耗，以及這些消耗如何影響最終的交付。改進方案：通過價值流圖，找到需要最佳化的環節，提出改善措施。3. 識別大模型應用場景資料驅動的決策：大模型可以幫助企業分析大量資料，提供更精確的決策支援，示例：通過AI分析客戶資料，最佳化市場行銷策略。自動化與智能化：大模型可以應用於自動化任務，如智能客服、語音識別、圖像識別等，減少人工成本並提升效率。個性化服務：通過大模型實現個性化推薦系統，基於使用者歷史行為或偏好為其推薦個性化的產品或服務，提高客戶滿意度和轉化率。預測與最佳化：利用大模型對歷史資料進行分析，預測未來趨勢，最佳化生產計畫、庫存管理等業務環節。業務流程改進：利用大模型分析當前業務流程中的瓶頸和效率低下的環節，提出改進措施，最佳化資源配置。實際應用案例：業務流程解構與企業大模型應用案例 1：智能客服系統最佳化1. 業務流程分析現有流程客戶通過電話或線上管道聯絡客服，人工客服接聽後處理問題。高峰時段，客服人員處理請求的速度較慢，且重複性問題佔比高。問題分析客服響應時間長，客戶體驗差。高重複性問題，人工客服效率低。客服人員壓力大，缺乏足夠的資源。2. 價值流圖繪製關鍵流程客戶請求 -> 人工客服接聽 -> 問題解決 -> 客戶反饋問題識別高峰期間等待時間長，人工客服需要處理大量重複問題，缺乏自動化支援。改進點引入自動化工具（如智能客服）減少人工干預，提升響應速度。3. 應用大模型自然語言處理（NLP）使用大語言模型（如GPT）建構智能客服系統，支援自然語言理解和生成，自動回答常見問題。工作流使用NLP識別客戶請求意圖並進行分類。常見問題通過智能問答系統自動解答。將複雜或不常見問題轉接給人工客服。結果客服響應時間減少50%，客戶滿意度提高。人工客服壓力減輕，更多精力投入到複雜問題處理上。案例 2：智能供應鏈與需求預測最佳化1. 業務流程分析現有流程企業生產與庫存管理依賴傳統的預測模型，按月或季度調整生產計畫，庫存管理不精確，容易造成庫存積壓或缺貨。問題分析生產計畫與實際需求不匹配，導致產能浪費或供應短缺。庫存管理不精準，影響現金流和營運成本。2. 價值流圖繪製關鍵流程需求預測 -> 生產計畫 -> 原材料採購 -> 產品生產 -> 倉庫管理 -> 客戶交付問題識別傳統需求預測精度低，庫存管理滯後，無法快速響應市場變化。3. 應用大模型機器學習模型利用歷史銷售資料、市場趨勢和季節性變化等因素，應用大模型提高需求預測精度。工作流使用AI進行資料分析和需求預測。自動調整生產排程和採購計畫。基於預測結果動態調整庫存管理策略。結果需求預測準確率提高20%，庫存積壓減少30%。生產和採購計畫更加精準，營運成本降低。案例 3：智能生產線質量控制1. 業務流程分析現有流程生產線上的產品質量由人工檢測，人工檢測存在判斷失誤和效率低的問題，特別是在高產量情況下，無法及時發現質量問題。問題分析質量檢測依賴人工，容易漏檢或誤判。高生產速度下無法保證每個產品都得到充分檢查，導致次品流入市場。2. 價值流圖繪製關鍵流程原材料入庫 -> 生產加工 -> 質量檢查 -> 產品包裝 -> 交付問題識別人工檢查的精準性和效率無法滿足生產需求，生產質量無法穩定控制。3. 應用大模型電腦視覺使用視覺大模型進行產品質量檢測，自動識別產品缺陷。工作流使用大模型對生產線上每個產品進行圖像識別，即時監控產品表面缺陷。對有缺陷的產品進行標記，及時移出生產線，避免流入市場。AI即時反饋生產資料給生產線控制系統，最佳化生產流程。結果質量檢測精度提升至99%，次品率減少80%。整體生產效率提升30%，減少了人工檢測的誤差和漏檢問題。總結這三個案例展示了如何通過大模型最佳化企業業務流程。智能客服、供應鏈最佳化和生產線質量控制是大模型應用的重要領域，通過自動化、預測和最佳化，企業能夠提高效率、降低成本，並提供更好的客戶體驗。通過結合大模型的強大能力，企業可以快速應對變化，提升競爭力。成功落地大模型五要素成功落地大模型五要素：業務人員的積極對 AI 能力的認知業務團隊自帶程式設計能力小處著手老闆的耐心如何找到落地場景找落地場景的思路：從最熟悉的領域入手儘量找能用語言描述的任務別求大而全。將任務拆解，先解決小任務、小場景讓 AI 學最厲害員工的能力，再讓 ta 輔助其他員工，實現降本增效思考：你的業務中，有那些問題可能 AI 能解決？工作機會在那裡？首先要知道：純大模型崗位幾乎是不存在的。可選：獨立開發者/創業有科技屬性的公司幾乎所有崗位傳統企業跑通 AI 工作流，找全端工程師定製化開發大模型是怎樣工作的？通俗原理其實，它只是根據上文，猜下一個詞（的機率）……OpenAI 的介面名就叫「completion」，也證明了其只會「生成」的本質。下面用程序演示「生成下一個字」。你可以自己修改 prompt 試試。還可以使用相同的 prompt 運行多次。from openai import OpenAIfrom dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())client = OpenAI()#prompt = "今天我很" # 改我試試prompt = "下班了，今天我很"#prompt = "放學了，今天我很"#prompt = "AGI 實現了，今天我很"response = client.chat.completions.create( model="gpt-4o-mini", messages=[{"role": "user", "content": prompt}], stream=True)# 處理並列印流式響應內容for chunk in response:print(f"\033[34m{chunk.choices[0].delta.content or''}\033[0m", end="")略深一點的通俗原理訓練和推理是大模型工作的兩個核心過程。用人類比，訓練就是學，推理就是用。學以致用，如是也。例如，有下面訓練資料：AI 正在改變我們的生活方式。AI 技術在醫療領域有廣泛應用。AI 可以提高企業的生產效率。AI 演算法能夠預測市場趨勢。AI 在自動駕駛汽車中扮演重要角色。AI 有助於個性化教育的發展。AI 機器人可以執行複雜的任務。AI 技術正在推動智能家居的普及。AI 在金融分析中發揮著關鍵作用。AI 技術正逐步應用於藝術創作。「AI」之後出現「技」的機率大於其它字。這些字之間的機率關係，就是大模型訓練時學到的。用不嚴密但通俗的語言描述原理：訓練：大模型閱讀了人類說過的所有的話。這就是「機器學習」訓練過程會把不同 token 同時出現的機率存入「神經網路」檔案。保存的資料就是「參數」，也叫「權重」推理：我們給推理程序若干 token，程序會載入大模型權重，算出機率最高的下一個 token 是什麼用生成的 token，再加上上文，就能繼續生成下一個 token。以此類推，生成更多文字Token 是什麼？可能是一個英文單詞，也可能是半個，三分之一個可能是一個中文詞，或者一個漢字，也可能是半個漢字，甚至三分之一個漢字大模型在開訓前，需要先訓練一個 tokenizer 模型。它能把所有的文字，切成 token1 個英文字元 ≈ 0.3 個 token。 1 個中文字元 ≈ 0.6 個 token。思考：AI 做對的事，怎麼用這個原理解釋？AI 的幻覺，一本正經地胡說八道，怎麼用這個原理解釋？再深一點點這套生成機制的核心叫「Transformer 架構」Transformer 是目前人工智慧領域最廣泛流行的架構，被用在各個領域機器學習 ≈ 機器自動找一個函數函數的參數找出函數的三步驟Transformer在做一個什麼事情？標量、向量、矩陣、張量的關係點——標量（scalar）線——向量（vector）面——矩陣（matrix）體——張量（tensor）Embedding是什麼？假設我們有一個句子：“The cat sat”Transformer核心：注意力機制注意力機制中的Q、K、V用好 AI 的核心心法OpenAI 首席科學家 Ilya Sutskever 說過：數字神經網路和人腦的生物神經網路，在數學原理上是一樣的。所以，我們要：把 AI 當人看把 AI 當人看把 AI 當人看凱文·凱利說了類似的觀點：「和人怎麼相處，就和 AI 怎麼相處。」用「當人看」來理解 AI用「當人看」來控制 AI用「當人看」來說服別人正確看待 AI 的不足當什麼人呢？學習時當老師工作時當助手休閒時當朋友這是貫徹整門課的心法，乃至我們與 AI 相伴的人生的心法。使用大模型的好習慣： - 使用大模型，不同的話題要開啟新的會話； - 明確指令和問題：儘量使問題或指令簡潔明確，避免多重含義或複雜結構，幫助模型更好理解和響應。 - 分步進行：如果問題複雜，可以將問題拆解成幾個小問題，逐步處理。這不僅能提高精準度，還能避免模型處理過於龐大的資訊。 - 上下文保留：在多個會話中，如果需要參考之前的對話，可以適當提及或複述關鍵點，避免丟失上下文。 - 分配優先順序：針對多個任務或問題，可以為每個話題分配優先順序，先處理最重要或最緊急的內容。 - 適應模型的限制：瞭解模型的處理能力和上下文長度限制，避免在同一會話中輸入過長的文字，尤其是如果涉及大量資訊時，分割問題會更有效。 - 反饋循環：在與模型互動時，如果模型的回答不完全或不符合預期，可以及時提供反饋和補充說明，讓模型逐步最佳化回答。 - 使用特定的格式或範本：如果是處理特定類型的任務或問題（如程式碼、數學問題、寫作任務），可以為輸入提供特定的格式或範本，以幫助模型更準確地理解任務需求。課堂實驗：你提個 AI 相關問題，我來用人類比大模型技術的短板對時效性內容的處理：由於大型模型通常在某個時間點之前的資料上訓練，它們可能無法處理最新的事件或資訊。例如，對於最近發生的新聞事件或新興的流行文化現象，模型可能缺乏理解，GPT4最近最新2023年4月。幻覺、不精準性和濫用風險：大型模型可能產生“幻覺”，即提供錯誤但看似合理的文字。這可能導致誤資訊的傳播，甚至被用於非法或不道德目的。例如，惡意使用者可能利用模型生成看似來自可信出版物的文章，作為假新聞傳播。泛化能力的侷限性：泛化能力指的是一個模型在處理新的、未見過的資料時的表現能力雖然大型模型在多個任務上表現出色，但在處理特定、罕見或新穎的情況時可能表現不佳難以解釋和透明性差：大型模型通常是“黑箱”，即使是模型的開發者也無法完全理解模型是如何配置自身以產生文字的。這導致瞭解釋或解釋AI/ML演算法的新框架的發展，但由於模型規模的增大，解釋性AI/ML方法變得日益複雜。大模型應用產品架構Agent 模式還太超前，Copilot 是當前主流。實現 Copilot 的主流架構是多 Agent 工作流模仿人做事，將業務拆成工作流（workflow、SOP、pipeline）每個 Agent 負責一個工作流節點大模型應用技術架構大模型應用技術特點：門檻低，天花板高。純 PromptPrompt 是操作大模型的唯一介面當人看：你說一句，ta 回一句，你再說一句，ta 再回一句……Agent + Function CallingAgent：AI 主動提要求Function Calling：AI 要求執行某個函數當人看：你問 ta「我明天去杭州出差，要帶傘嗎？」，ta 讓你先看天氣預報，你看了告訴 ta，ta 再告訴你要不要帶傘RAG（Retrieval-Augmented Generation）Embeddings：把文字轉換為更易於相似度計算的編碼。這種編碼叫向量向量資料庫：把向量存起來，方便尋找向量搜尋：根據輸入向量，找到最相似的向量當人看：考試答題時，到書上找相關內容，再結合題目組成答案，然後，就都忘了Fine-tuning（精調/微調）當人看：努力學習考試內容，長期記住，活學活用。如何選擇技術路線面對一個需求，如何開始，如何選擇技術方案？下面是個不嚴謹但常用思路。其中最容易被忽略的，是準備測試資料值得嘗試 Fine-tuning 的情況：提高模型輸出的穩定性使用者量大，降低推理成本的意義很大提高大模型的生成速度需要私有部署如何選擇基礎模型凡是問「那個大模型最好？」的，都是不懂的。不妨反問：「有無論做什麼，都表現最好的員工嗎？」劃重點：沒有最好的大模型，只有最適合的大模型基礎模型選型，合規和安全是首要考量因素。然後用測試資料，在可以選擇的模型裡，做測試，找出最合適的。為什麼不要依賴榜單？榜單已被應試教育污染。唯一還算值得相信的榜單：LMSYS Chatbot Arena Leaderboard榜單體現的是整體能力。放到一件具體事情上，排名低的可能反倒更好榜單體現不出成本差異本課程主打語言是 Python，因為：Python 和 AI 是天生一對Python 是最容易學習的程式語言安裝 OpenAI Python 庫在命令列執行：pip install --upgrade openai發一條消息體驗給大模型注入新知識的程式碼竟如此簡單。from openai import OpenAI# 載入 .env 檔案到環境變數from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())# 初始化 OpenAI 服務。會自動從環境變數載入 OPENAI_API_KEY 和 OPENAI_BASE_URLclient = OpenAI()# 消息messages = [ {"role": "system","content": "你是AI助手小瓜，是 AGIClass.ai 的助教。這門課每周二、四上課。"# 注入新知識 }, {"role": "user","content": "周末上課嗎？"# 問問題。可以改改試試 },]# 呼叫 GPT-4o-mini 模型chat_completion = client.chat.completions.create( model="gpt-4o-mini", messages=messages)# 輸出回覆print(chat_completion.choices[0].message.content)DeepSeek本地部署和應用ollamadocker 桌面版open-webui 版本：dyrnq/open-webui:latestDeepSeek本地部署實戰演示未來展望大模型競爭的過程繼續白熱化，第一將會不斷輪流切換多模態大模型將更加成熟，大模型的價格將不斷走低大模型應用開發才是未來最值的關注的方向，應用為王作業發掘自己身邊的大模型落地場景，撰寫自己的大模型應用構想，要求給出需求說明和期望的效果。 (金信融息)

大模型的勝與敗

對話回顧：Harry Stebbings vs Rich Socher（You.com 創始人，斯坦福博士，前Salesforce首席科學家）⸻部分摘錄“基礎LLM 會像電信營運商：支撐了網際網路，卻分不到 Uber 的利潤/Infrastructure LLMs will look like telcos: they make the internet possible but don’t get a cut of Uber”“聊天廣告效果比搜尋廣告差 10–100 倍，算力成本卻高出 2 倍。”“DeepSeek 發佈當天，開源抹去了數十億美元的護城河估值。”“未來只要你做某事超過十次，就會問：AI 為什麼還沒學會替我做？”1. Rich Socher 是誰？學術背景斯坦福大學博士；曾在“神經網路用於 NLP 仍具爭議”時期率先引入該方法。共同建立了兩套最常用詞向量之一；主導了上下文嵌入（ELMo → BERT）和提示工程的早期工作。產業履歷創辦 MetaMind 並被 Salesforce 收購；隨後出任 Salesforce 首席科學家兼執行副總裁。2020 年創立 You.com，最初打造以 LLM 為核心、答案優先的搜尋引擎；現已轉型為面向企業的 LLM 智能體與搜尋平台。2. LLM 版圖現狀浪潮 vs. 泡沫整體能力穩步提升，但 hype 周期（如 DeepSeek、Llama‑4 等）會引發情緒尖峰。“智能”上限Socher 將智能分成 10 個維度。其中一些（如目標檢測）已解決約 90%；而世界知識、推理等離物理極限仍“遙不可及”。同質化正在發生單純“算力‑模型”提供商將類似電信營運商：資本開支巨大，創造巨大價值，卻只捕獲有限利潤。抓住終端使用者關係者才能獲取價值（OpenAI 的 ChatGPT 已佔據消費端；Anthropic 因 Claude 消費端份額小，反而被迫強化基礎設施）。開源 vs. 閉源開源（如 DeepSeek‑V2）大幅縮小差距；完整訓練成本估計在 1–2 億美元，而非幾百萬美元。隨著開源質量提高，單純“賣模型”的估值（Anthropic、xAI 等）若無強黏性產品，將不再符合 VC 偏好。3. 搜尋、廣告與拆分使用者往往提出簡單查詢（天氣、比分、股價），Google 已能毫秒級返回，難以做到 10× 提升。聊天廣告轉化率比搜尋廣告低 10–100 倍，算力成本卻翻倍。網際網路仍處於拆分周期：人們樂於跳轉至 Yelp、TikTok 搜尋、Amazon 等垂類。LLM 答案在複雜或企業專屬查詢中表現最佳 → You.com 現向企業出售“答案 + 智能體”方案（內部網路部署）。4. 企業落地與“智能體”現實檢驗大企業 DIY / OpenAI 試點常以失敗告終：啟動率低（購買 1000 席位後一周留存僅 6%）。流程轉譯困難：員工需把隱性知識顯性化，成為 AI 的“經理”，而多數人缺乏此技能。行動型智能體的“幻滅谷”預訂行程、自動退款等演示很炫，但在混亂的現實場景頻繁出錯；缺乏深度個性化。目前，垂直或任務明確、帶清晰護欄的智能體效果優於“萬事通”助手。5. 經濟學、投資與護城河純模型公司 ≠ 理想 VC 標的（稀釋、期權開支、開源壓力）。Socher 青睞早期、技術導向的創始團隊，聚焦垂直 AI 應用，尤其生物科技與藥物發現領域（“AI + 生物學是完美風暴”）。預計市場估值壓縮：部分僅賣 API 的初創公司當前按 180× ARR 交易，未來將被重估。6. 超越 LLM —— 機器人、量子、生物與政策人形機器人：僅在任務多樣且規模小（家庭雜務）時才有利；高規模、重複性場景更偏好定製形態（如配雷射器的拖拉機）。生物學突破：AI 將攻克複雜系統空白（微生物組、細胞模擬）。需量子或超大規模經典計算來模擬完整細胞 → 醫療與長壽的巨大解鎖。經濟學新前沿：AI‑Economist 項目證明 RL 能搜尋數十億種稅收政策，但經濟學界進展緩慢。監管：歐盟 AI 法案或削弱本土初創；Socher 倡議強制電腦科學教育、放寬退出管道（IPO & 併購）、設立全球投資的主權財富基金。7. 職業與社會建議即便 LLM 會寫程式碼，也應學程式設計：能建立思維模型，管理 AI“員工”。入門級崗位消失最快；具長遠視野的公司仍須培養新人，以便未來的高級人才瞭解流程。職位替代短期內會帶來陣痛（當今的“盧德分子”＝插畫師）。政府需在不扼殺技術的前提下緩衝轉型。給學生的建議：將專業知識（法律、醫學、化學）與 CS/ML 結合，未來幾十年需求旺盛。8. 個人與哲學札記AGI 賭局：到 2027 年同時滿足：可購買的家用機器人能像人類一樣清潔；解決一項千禧年數學難題；文學作品可被完美翻譯，獲原作者認可。（他仍自信能贏，但佩服對手為追賭局已成億萬富翁。）關於意義與 UBI：擔心無條件基本收入侵蝕目標感；社會應培養以創造為驅動的心態。最期待的未來十年：長壽醫療、企業級 LLM 智能體普及、量子助力的生物模擬。 (Luis Lens)

泥沙俱下，Manus被掩埋的價值

3月11日，Manus 官方正式宣佈與阿里通義千問團隊開展戰略合作。由通義千問提供專屬模型支援的 Manus 中文版本正在開發中… （由於沒有邀請碼測試 Manus，本文側重行業分析，體驗歸納所選取的案例資料均來自於公開的測試回放） 1 創新的質疑

【DeepSeek】DeepSeek-R1爆火一個月，帶來那些改變？瑞銀調研了20家軟體公司

反饋顯示，企業客戶越來越傾向於利用AI作爲生產力和收入增長的驅動力。雖然預算計劃通常在3月份之後制定，但已有跡象表明2025年的IT支出可能會增加，而AI將是重中之重。瑞銀認爲，鑑於改善的增長前景，中國AI估值仍有上升空間。 2025，大型語言模型（LLM）的「戰火」終於燒到了中國。DeepSeek R1的發佈，成爲改變整個行業格局的催化劑。近日，瑞銀對20家軟體公司進行了調研，試圖揭示DeepSeek R1在過去一個月裏對行業產生的深遠影響。反饋顯示，企業客戶越來越傾向於利用AI作爲生產力和收入增長的驅動力。雖然預算計劃通常在3月份之後制定，但已有跡象表明2025年的IT支出可能會增加，而AI將是重中之重。

【DeepSeek】開源三箭齊發，梁文鋒親自上陣！雙向平行LLM訓練飆升

DeepSeek開源第四天，連更三個項目。DualPipe、EPLB、以及計算與通訊重疊機制的最佳化平行策略，讓大模型訓練更快，成本更低，還能保持頂尖性能。開源周第4天，DeepSeek放出的是——最佳化平行策略，一共三個項目。 DualPipe：一種用於V3/R1模型訓練中實現計算與通訊重疊的雙向流水線平行演算法 EPLB：一個針對V3/R1的專家平行負載平衡工具

【DeepSeek】孫正義患DeepSeek焦慮症？首談5000億星際之門，每年算力暴增1000倍

【新智元導讀】斥資5000億打造星際之門，孫正義自曝，有人說我患上DeepSeek焦慮症！實則不然，星際之門每一年算力會提升1000倍。未來10年，超級智能對全球GDP影響至少5%，也就是9兆規模。 DeepSeek R1在科技圈掀起的巨震，終於等來了AI界大佬的回應。前一天，老黃首度公開回應DeepSeek衝擊：輝達股價暴跌是市場的誤解，未來算力仍至關重要！他表示，儘管預訓練仍然重要，但「後訓練」才是智能最重要的部分，也是「學習解決問題的關鍵環節」。